互补标签(CL)只是指示一个示例的不正确类,但是使用CLS学习会导致多类分类器可以预测正确的类。不幸的是,问题设置仅允许每个示例一个CL,这特别限制了其潜力,因为我们的标签可能会轻松地将多个CLS(MCL)识别为一个示例。在本文中,我们提出了一个新颖的问题设置,以允许每个示例的MCL和使用MCL学习的两种方法。首先,我们设计了两个将MCL分解为许多单个CLS的包装器,以便我们可以使用CLS学习任何方法。但是,分解后MCL持有的监督信息在概念上稀释。因此,在第二个方面,我们得出了公正的风险估计器。最小化IT处理每组MCL的整体组合,并具有估计误差的结合。我们进一步改善了第二种方法,以最大程度地减少正确选择的上限。实验表明,以前的方式可以很好地与MCL学习,但后者甚至更好。
translated by 谷歌翻译
我们通过雷达来解决对象跟踪以及处理异常值的当前最新方法的鲁棒性。标准跟踪算法从雷达图像空间中提取检测到在过滤阶段使用它。过滤由卡尔曼过滤器进行,该滤波器假设高斯分布式噪声。但是,此假设并不能说明大型建模错误,并导致突然动作期间的跟踪性能差。我们将高斯总和过滤器(多假设跟踪器的单对象变体)作为基线,并通过与比高斯更重的分布建模工艺噪声来提出修改。变分贝叶斯提供了一种快速,计算上便宜的推理算法。我们的模拟表明,在存在过程离群值的情况下,稳健的跟踪器在跟踪单个对象时优于高斯总和过滤器。
translated by 谷歌翻译
变压器的令人印象深刻的性能归因于自我注意力,在每个位置都考虑了整个输入之间的依赖性。在这项工作中,我们改革了神经$ n $ gram模型,该模型仅着眼于每个位置的几个周围表示,其多头机制如Vaswani等人(2017年)。通过对序列到序列任务的实验,我们表明,用多头神经$ n $ gram在变压器中替换自我注意力可以比变压器实现可比性或更好的性能。从对我们提出的方法的各种分析中,我们发现多头神经$ n $ gram是互补的,它们的组合可以进一步提高香草变压器的性能。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
完全无监督的3D表示学习因其在数据收集方面的优势而引起了人们的关注。一种成功的方法涉及一种观点感知方法,该方法基于生成模型(例如生成对抗网络(GAN))学习图像分布,同时基于3D感知模型(例如,神经辐射场(NERFS))生成各种视图图像。但是,他们需要具有各种视图的图像进行培训,因此,它们在很少或有限的观点的数据集中应用仍然是一个挑战。作为一种补充方法,提出了采用散焦提示的孔渲染gan(AR-GAN)。但是,AR-GAN是基于CNN的模型,尽管其高相关性,但它独立于观点变化代表散焦,这是其性能的原因之一。作为AR-GAN的替代方案,我们提出了一个光圈渲染的NERF(AR-NERF),该启示可以通过在常见的射线追踪框架中代表这两个因素来以统一的方式利用观点和Defocus提示。此外,要以分散的方式学习散热性和独立的表示,我们提出了孔径随机训练,为此我们学会生成图像,同时独立地将光圈大小和潜在代码随机。在实验过程中,我们将AR-NERF应用于各种自然图像数据集,包括花,鸟和面部图像,其结果证明了AR-NERF对深度和散焦效应的无监督学习的实用性。
translated by 谷歌翻译
我们研究了掩盖语言模型(MLMS)的任务无关内在和特定于任务的外在社会偏见评估措施之间的关系,并发现这两种评估措施之间仅存在弱相关性。此外,我们发现在下游任务进行微调期间,使用不同方法的MLMS DEBIAS进行了重新划分。我们确定两个培训实例中的社会偏见及其分配的标签是内在偏见评估测量值之间差异的原因。总体而言,我们的发现突出了现有的MLM偏见评估措施的局限性,并提出了使用这些措施在下游应用程序中部署MLM的担忧。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
贝叶斯神经网络试图将神经网络的强大预测性能与与贝叶斯架构预测产出相关的不确定性的正式量化相结合。然而,它仍然不清楚如何在升入网络的输出空间时,如何赋予网络的参数。提出了一种可能的解决方案,使用户能够为手头的任务提供适当的高斯过程协方差函数。我们的方法构造了网络参数的先前分配,称为ridgelet,它近似于网络的输出空间中的Posited高斯过程。与神经网络和高斯过程之间的连接的现有工作相比,我们的分析是非渐近的,提供有限的样本大小的错误界限。这建立了贝叶斯神经网络可以近似任何高斯过程,其协方差函数是足够规律的任何高斯过程。我们的实验评估仅限于概念验证,在那里我们证明ridgele先前可以在可以提供合适的高斯过程的回归问题之前出现非结构化。
translated by 谷歌翻译